بازشناسی احساس از روی گفتار پیوسته فارسی

پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی
نویسنده مینا حمیدی
استاد راهنما محرم منصوری زاده هومان نیک مهر
سال انتشار 1391

چکیده

در سالهای اخیر بازشناسی احساس به عنوان روش جدیدی برای تعامل انسان با کامپیوتر مورد توجه و موضوع تحقیقات زیادی بوده است. احساس، در قالب حرکات چهره، گفتار، حرکات دست و بدن و علایم زیستی مانند ضربان قلب بروز می یابد. مدل پیشنهادی در این پایان نامه از گفتار پیوسته فارسی برای بازشناسی احساس استفاده می کند. بازشناسی احساس از گفتار بر روی زبان های مختلفی انجام شده اما بر روی زبان فارسی تا کنون این چنین به آن پرداخته نشده است. برای ارزیابی عملکرد سیستم طراحی شده، نیاز به پایگاه داده مناسبی داشتیم. به علت نبود پایگاه داده مناسب اقدام به ساخت و تهیه پایگاه داده صوتی احساسی نموده و آن را basu speech database نام نهادیم. این پایگاه داده از صدای ضبط شده بازیگران در سریال ها و فیلم های تلوزیونی و نمایشنامه های رادیویی ساخته شده است. هدف طبیعی بودن و جامع بودن گفتار موجود در پایگاه داده بود که به همین خاطر در این پایگاه از گفتار زن و مرد و در رده های مختلف سنی استفاده شده است. در این مدل ابتدا ویژگی های مورد نیاز گفتار را استخراج کرده و با استفاده از سه طبقه بند شبکه عصبی، svm و بیز به بازشناسی احساس از گفتار پرداخته شده و نتایج به دست آمده مقایسه و تحلیل شده است. در این پایان نامه سه آزمایش متفاوت ترتیب داده شده است. آزمایش اول و دوم به بازشناسی احساس تنها یک فرد پرداخته، با این تفاوت که در آزمایش اول هر احساس به صورت جدا بررسی شده اما در آزمایش دوم هر پنج احساس مورد نظر مورد بررسی قرار گرفته شده است. اما آزمایش سوم بر روی کل پایگاه داده تهیه شده، انجام گرفته است. بر اساس نتایج به دست آمده، بازشناسی احساس از گفتار برای یک شخص خاص نتایج بهتری از خود نشان خواهد داد، علاوه بر این هر چه تعداد احساس مورد بررسی بیشتر شود، احتمال نزدیک شدن آنها به هم و پایین آمدن دقت بیشتر خواهد شد. در آزمایشات انجام شده طبقه بند بیز دقت بالاتری برای بازشناسی احساس از گفتار بدست آورده است. با مقایسه نتایج بدست آمده در این تحقیق با کارهای دیگری که در این زمینه انجام شده اند، دقت به دست آمده در آزمایشات انجام شده در این پایان نامه که به صورت میانگین برای سه طبقه بند شبکه عصبی، svm و بیز به ترتیب،6.69%، 4.71% و 78% می باشد، نتایج قابل قبولی خواهند بود.

منابع مشابه

بازشناسی گفتار پیوسته فارسی به کمک شبکه های عصبی

گفتار محصول سیستمهای تولید و درک گفتار و مغز انسان است . انسان همیشه از طریق گفت و شنود توانسته است ارتباط بهتری با محیط خود برقرار کند. بنابراین اگر بتوان از کامپیوتر بصورت سمعی و بصری بهره گرفت ، تحول بزرگی در استفاده از آنها بوجود می آید. در این پروژه، بمنظور طراحی روشهایی در بازشناخت گفتار پیوسته فارسی، شبکه های عصبی بعنوان ابزار مدلسازی انتخاب شده اند. در بخش نخست اجرای پروژه، با هدف دستیا...

15 صفحه اول

رتبه‌بندی واج‌های گفتار فارسی از نظر کارآیی در بازشناسی گوینده

در این مقاله، کارآیی واجهای گفتار فارسی از نظر بازشناسی گوینده مورد مطالعه و پژوهش قرار گرفته و با توجه به میزان کارآییها، رتبهبندی واجها صورت گرفته‌اند. جهت برآورد کارآیی واجها، از یک معیاری که بهصورت نسب « فاصلة بینگویندهای» واجها به « فاصلة در گوینده‌ای» تعریف شده است و ما آن را « نسبت تأثیرپذیری گوینده » نامیدهایم، استفاده شده است. آزمایشها و محاسبات لازم برای کلیه واجهای گفتار...

متن کامل

بررسی تاثیر سرعت گفتار روی زمان شروع واک (وی اُتی) همخوان های انسدادی فارسی معیار در گفتار پیوسته

مطالعۀ حاضر به بررسی تأثیر سرعت گفتار روی زمان شروع واک (وی‌اُتی) همخوان‌های انسدادی واکدار /b, d, ɟ/ و بیواک /p,t,c/ زبان فارسی معیار می‌پردازد. به این منظور، طی آزمون تولیدی تعداد 8 جمله حاوی کلمات آزمایش، هر کدام 3 مرتبه توسط 24 شرکت ‌کننده (17 شرکت ‌کنندۀ مؤنث و 7 شرکت ‌کنندۀ مذکر) در سرعت‌های متفاوت تولید شدند. مقادیر وی‌اُتی برای همخوان‌های انسدادی واکدار و بیواک به تفکیک موقعیت در واژه (...

متن کامل

پایه‌گذاری بستری نو و کارآمد در حوزه بازشناسی گفتار فارسی

Although researches in the field of Persian speech recognition claim a thirty-year-old history in Iran which has achieved considerable progresses, due to the lack of well-defined experimental framework, outcomes from many of these researches are not comparable to each other and their accurate assessment won’t be possible. The experimental framework includes ASR toolkit and speech database ...

متن کامل

مدلسازی وابسته به متن در بازشناسی گفتار پیوسته بر اساس در خت تصمیم گیری آوایی فارسی

مدلسازی وابسته به متن به عنوان شیوه ای مفید برای افزایش دقت مدلسازی در بازشناسی گفتار پیوسته مورد توجه است. معمولترین شکل پیاده سازی این شیوه، استفاده از مدلهای سه آوایی است. با این همه، تعداد زیاد این مدلها موجب می شود که در عمل، آموزش سیستم با مشکلات زیادی همراه باشد و دستیابی به آموزش مقاوم (robust training) به سختی میسر گشته یا اصولا مقدور نشود. یکی از شیوه های حل این مشکل، استفاده از روش گ...

متن کامل

معرفی شبکه های عصبی پیمانه ای عمیق با ساختار فضایی-زمانی دوگانه جهت بهبود بازشناسی گفتار پیوسته فارسی

In this article, growable deep modular neural networks for continuous speech recognition are introduced. These networks can be grown to implement the spatio-temporal information of the frame sequences at their input layer as well as their labels at the output layer at the same time. The trained neural network with such double spatio-temporal association structure can learn the phonetic sequence...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه بوعلی سینا - دانشکده مهندسی

کلمات کلیدی

بازشناسی احساس پایگاه داده صوتی احساس گفتار پیوسته فارسی

میزبانی شده توسط پلتفرم ابری doprax.com